检索结果

Select

1. 基于聚类划分的高效用模式并行挖掘算法

邢淑凝, 刘方爱, 赵晓晖

计算机应用 2016, 36 (8): 2202-2206. DOI: 10.11772/j.issn.1001-9081.2016.08.2202

摘要（492）

PDF （844KB）（349）

针对在大规模数据库中挖掘高效用模式产生大量基于内存的效用模式树，从而导致内存空间占用较大以及丢失一些高效用项集的问题，提出在Hadoop分布式计算平台下的基于聚类划分的高效用模式并行挖掘算法PUCP。首先，采用聚类的方法把数据库中相似的事务划分为若干数据子集；然后，把若干划分好的数据子集分配到Hadoop平台的各个节点中构造效用模式树；最后，把各个节点中相同项的条件模式基分配到同一个节点中进行挖掘，以减少各个节点交叉操作的次数。通过实验结果和理论分析表明：PUCP算法在不影响挖掘结果可靠性的前提下，与主流串行高效用模式挖掘——效用模式增长挖掘算法（UP-Growth）和现有的并行高效用模式挖掘算法PHUI-Growth相比，挖掘效率分别提高了61.2%和16.6%；并且使用了Hadoop计算平台，能有效缓解挖掘大规模数据的内存压力。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于巴氏系数和Jaccard系数的协同过滤算法

杨家慧, 刘方爱

计算机应用 2016, 36 (7): 2006-2010. DOI: 10.11772/j.issn.1001-9081.2016.07.2006

摘要（639）

PDF （729KB）（397）

针对传统基于邻域的协同过滤推荐算法存在数据稀疏性及相似性度量只能利用用户共同评分的问题，提出一种基于巴氏系数和Jaccard系数的协同过滤算法（CFBJ）。在项目相似性度量中，该算法引入巴氏系数和Jaccard系数，巴氏系数利用用户所有评分信息克服共同评分的限制，Jaccard系数可以增加相似性度量中共同评分项所占的比重。该算法通过提高项目相似度准确率来选取最近邻，优化了对目标用户的偏好预测和个性化推荐。实验结果表明，该算法比平均值-杰卡德差分（MJD）算法、皮尔森系数（PC）算法、杰卡德均方差（JMSD）算法、PIP算法误差更小，分类准确率更高，有效缓解了用户评分数据稀疏所带来的问题，提高了推荐系统的预测准确率。

参考文献 | 相关文章 | 多维度评价

Select

3. 改进的多数据流协同频繁项集挖掘算法

王鑫, 刘方爱

计算机应用 2016, 36 (7): 1988-1992. DOI: 10.11772/j.issn.1001-9081.2016.07.1988

摘要（438）

PDF （769KB）（396）

针对已有的多数据流协同频繁项集挖掘算法存在内存占用率高以及发现频繁项集效率低的问题，提出了改进的多数据流协同频繁项集挖掘（MCMD-Stream）算法。首先，该算法利用单遍扫描数据库的字节序列滑动窗口挖掘算法发现数据流中的潜在频繁项集和频繁项集；其次，构建类似频繁模式树（FP-Tree）的压缩频繁模式树（CP-Tree）存储已发现的潜在频繁项集和频繁项集，同时更新CP-Tree树中每个节点生成的对数倾斜时间表中的频繁项计数；最后，通过汇总分析得出在多条数据流中多次出现的且有价值的频繁项集，即协同频繁项集。相比A-Stream和H-Stream算法，MCMD-Stream算法不仅能够提高多数据流中协同频繁项集挖掘的效率，并且还降低了内存空间的使用率。实验结果表明MCMD-Stream算法能够有效地应用于多数据流的协同频繁项集挖掘。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于层次划分的密度优化聚类算法

逄琳, 刘方爱

计算机应用 2016, 36 (6): 1634-1638. DOI: 10.11772/j.issn.1001-9081.2016.06.1634

摘要（501）

PDF （731KB）（410）

针对传统的聚类算法对数据集反复聚类,且在大型数据集上计算效率欠佳的问题,提出一种基于层次划分的最佳聚类数和初始聚类中心确定算法——基于层次划分密度的聚类优化(CODHD)。该算法基于层次划分,对计算过程进行研究,不需要对数据集进行反复聚类。首先,扫描数据集获得所有聚类特征的统计值;其次,自底向上地生成不同层次的数据划分,计算每个划分数据点的密度,将最大密度点定为中心点,计算中心点距离更高密度点的最小距离,以中心点密度与最小距离乘积之和的平均值为有效性指标,增量地构建一条关于不同层次划分的聚类质量曲线;最后,根据曲线的极值点对应的划分估计最佳聚类数和初始聚类中心。实验结果表明,所提CODHD算法与预处理阶段的聚类优化(COPS)算法相比,聚类准确度提高了30%,聚类算法效率至少提高14.24%。所提算法具有较强的可行性和实用性。

参考文献 | 相关文章 | 多维度评价

Select

5. 基于文化算法的符号网络全局不平衡度计算

赵晓晖, 刘方爱

计算机应用 2016, 36 (12): 3341-3346. DOI: 10.11772/j.issn.1001-9081.2016.12.3341

摘要（492）

PDF （864KB）（398）

针对已有符号网络不平衡度计算方法大都只关注局部网络单元的平衡信息，没有考虑网络更大范围乃至全局角度的平衡，无法揭示网络中的不平衡区域这一问题，提出基于文化算法的符号网络全局不平衡度计算方法。该方法利用伊辛自旋玻璃模型描述符号网络的全局状态，将不平衡度的计算转换为一个优化问题，并设计一种具有双层进化结构的文化算法——CA-SNB进行求解。首先，该算法采用遗传算法进行种群空间进化；其次，在信度空间中记录较优个体，并采用贪婪算法提取状况知识；最后，利用状况知识引导种群空间的进化，在保证种群多样性的基础上提高了收敛速度。实验表明，与遗传算法和矩阵变换算法相比，CA-SNB能较快地收敛到最优解，具有较高鲁棒性，在计算全局不平衡度的同时识别不平衡区域。

参考文献 | 相关文章 | 多维度评价

Select

6. 有效的不确定数据概率频繁项集挖掘算法

刘浩然, 刘方爱, 李旭, 王记伟

计算机应用 2015, 35 (6): 1757-1761. DOI: 10.11772/j.issn.1001-9081.2015.06.1757

摘要（477）

PDF （911KB）（463）

针对已有概率频繁项集挖掘算法采用模式增长的方式构建树时产生大量树节点,导致内存空间占用较大以及发现概率频繁项集效率低等问题,提出了改进的不确定数据频繁模式增长(PUFP-Growth)算法。该算法通过逐条读取不确定事务数据库中数据,构造类似频繁模式树(FP-Tree)的紧凑树结构,同时更新项头表中保存所有尾节点相同项集的期望值的动态数组。当所有事务数据插入到改进的不确定数据频繁模式树(PUFP-Tree)中以后,通过遍历数组得到所有的概率频繁项集。最后通过实验结果和理论分析表明:PUFP-Growth算法可以有效地发现概率频繁项集;与不确定数据频繁模式增长(UF-Growth)算法和压缩的不确定频繁模式挖掘(CUFP-Mine)算法相比,提出的PUFP-Growth算法能够提高不确定数据概率频繁项集挖掘的效率,并且减少了内存空间的使用。

参考文献 | 相关文章 | 多维度评价

Select

7. 无线传感器网络备份路径分簇算法

丁鼎刘方爱李倩倩杨光旭

计算机应用 2012, 32 (04): 920-923. DOI: 10.3724/SP.J.1087.2012.00920

摘要（1064）

PDF （599KB）（455）

在路由协议中利用分簇技术可以提高无线传感器网络的可扩展性。针对无线传感器网络(WSN)中分簇算法的不足，提出了基于备份节点策略的EDC算法，传感器节点在其簇头失效后仍可以通过其备份路径传输数据。通过OMNeT++平台上的仿真实验表明，EDC在网络重建时间、失效节点数量较其他WSN协议有明显的改善。

参考文献 | 相关文章 | 多维度评价

Select

8. 基于GLOBUS的数据网格中副本定位策略研究

李田来刘方爱

计算机应用

摘要（1474）

在因特网的数据网格环境中，将整个网格系统划分为若干个存储子域，基于Globus平台，结合Giggle框架提出三层副本定位服务结构，并提出了基于Giggle的副本定位算法（RLBOG）。分析表明，新算法有效地减少了响应时间，提高了系统性能。